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科技 期 刊 语 义 出 版 的 学 术 不 病 防 沧 功 能 的 实现 


摘 要 : 为 给 科技 期 刊 语义 出 版 的 发 展 及 学 术 不 端 行为 的 防范 提供 参考 ,根据 科 技 期 刊 的 发 展 趋势 ， 结 合 语义 出 版 的 特点 ， 
研究 科技 期 刊 语义 出 版 过 程 中 ， 防 范 学 术 不 端 行为 的 实现 。 在 学 术 不 端 行为 防范 方面 ， 语 义 出 版 使 得 科技 期 刊 出 版 流程 主要 
发 生 两 方面 的 变化 : 审 稿 方 面 从 单一 的 重复 性 检测 到 创新 性 预测 ; 出 版 内 容 方面 从 单 篇 论文 出 版 到 关联 数据 出 版 。 由 于 检测 
软件 的 智能 化 ， 出 版 内 容 的 关联 化 ， 内 容 推 送 的 精准 化 ， 出 版 流程 的 去 中 心 化 ， 科 技 期 刊 对 于 学 术 不 端 行 为 的 防范 功能 得 以 
实现 。 但 是 科技 期 刊 的 语义 出 版 中 还 存在 数据 的 开放 共享 与 出 版 商 既 有 利益 的 冲突 ， 及 语义 技术 与 区 块 链 技术 联合 应 用 的 冲 
突 ， 本 文 就 此 提出 了 一 些 建议 。 
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近年 来 ， 学 术 不 端 行为 呈现 了 新 变化 ， 由 于 获取 信 
息 途 径 更 多 ， 抄 袭 成 本 降低 ， 形 式 越 来 越 多 样 化， 隐蔽 
性 越 来 越 强 ， 逐 渐 显 现 常态 化 。 学 术 不 端 行为 对 学 术 环 
境 的 不 良 影 响 也 越 来 越 受 到 关注 。 科 技 期 刊 作为 科技 成 
果 的 重要 交流 平台 ， 是 干预 和 阻止 学 术 不 端 行为 的 最 后 
防线 ， 在 净化 学 术 环境 中 占有 重要 地 位 。 目 前 ， 科 技 期 


的 研究 多 集中 于 出 版 流程 中 语义 出 版 技术 的 实现 ， 鲜 见 
有 关 语 义 出 版 在 防范 学 术 不 端 方 面 的 研究 。 本 研究 基于 
语义 技术 在 科技 期 刊 的 应 用 ， 详细、 多 角度 阐述 语义 出 
版 在 技术 实施 方面 如 何 实现 对 不 端 学 术 行 为 的 防 控 ， 旨 
在 为 科技 期 刊 语义 出 版 发 展 中 对 于 学 术 不 端 行为 的 规避 
提供 参考 ， 使 得 科技 期 刊 成 为 维护 学 术 生态 环境 的 重要 


刊 出 版 流程 中 对 于 学 术 不 端 行为 的 防范 主要 是 在 审 稿 阶 
段 通过 同行 评议 、 检 测 系统 查 重 、 要 求 作 者 签署 “诚信 
承诺 书 ” 等 措施 来 进行 ， 同 行 评议 和 新 兴起 的 查 重 软件 
均 存 在 一 定 的 不 足 , 签署 科研 诚信 承诺 书 基 本 流 于 形式 ， 
收效 其 微 ， 使 得 学 术 不 端 行为 向 隐蔽 性 更 强 、 发 现 难度 
更 大 等 方向 发 展 ，。 
目前 ， 关 于 论文 出 版 阶段 科技 期 刊 防 范 学 术 不 端 行 
为 的 研究 主要 是 集中 在 学 术 不 端 行为 规律 及 其 防范 措施 
方面 。 徐 石 勇 等 以 《丝绸 》 为 例 ， 对 近年 来 该 期 刊 遇 到 
的 作者 学 术 不 端的 现象 进行 汇总 、 分 析 ， 并 总 结 了 针对 
这 些 学 术 不 端 现 象 的 防范 措施 ”“; 吴宁 对 科技 期 刊 中 学 
术 不 端 行为 的 变化 特点 进行 了 分 析 ， 并 提出 了 一 些 应 对 
措施 ”; 王子 君 等 提出 在 修改 稿件 过 程 中 如 何 判断 学 术 
不 端 行为 "。 研 究 表明 ， 由 于 各 途径 均 存 在 玻 漏 ， 在 科 
技 期 刊 出 版 中 防范 学 术 不 端 行为 最 重要 的 途径 还 是 加 强 
期 刊 人 才 建 设 和 提高 其 素质 ， 不 端 行为 的 发 现 往往 需要 
依赖 编辑 的 责任 心 和 专业 素养 ， 需 要 充分 发 挥 编 辑 的 主 
观 能 动 性 “"， 这 就 难免 造成 学 术 不 端 行为 的 漏 查 。 
作为 一 种 科技 期 刊 出 版 的 发 展业 态 ， 关 于 语义 出 版 


二 


屏障 和 学 术 评 价 的 公 器 。 
1. 学 术 不 端 行为 防范 方面 科技 期 刊 出 版 流程 的 变化 
1.1 审 稿 方面 从 单一 的 重复 性 检测 到 创新 性 预测 

由 于 从 第 一 次 重复 率 检 测 到 上 网 的 滞后 期 ， 在 刊 发 
前 编辑 可 能 需 对 稿件 进行 多 次 重复 率 检测 。 真 正 的 语义 
出 版 工作 始 于 作者 进行 论文 创作 ， 由 于 文章 与 检测 系统 
的 无 颖 衔接 ， 确 保 稿件 每 次 修改 都 自动 生成 实时 相似 性 
检测 ， 超 过 预 设 值 则 自动 发 出 预警 ， 为 编辑 工作 带 来 极 
大 的 便利 。 语义 出 版 在 稿件 的 审查 阶段 ， 不 仅 可 以 防范 
同行 评议 、 判 断 创 新 性 中 出 现 学 术 不 端 ， 还 可 以 帮助 编 
辑 对 于 稿件 的 研究 背景 、 学 科 进 展 、 应 用 前 景 进行 预 估 ， 
不 再 是 单一 的 进行 相似 性 检测 。 

应 用 语义 技术 有 利于 基于 最 少 的 工作 建立 一 个 真正 
意义 上 的 全 网 协同 平台 ， 实 现 最 大 限度 的 知识 产权 保护 
和 学 术 不 端 行为 的 发 现 。 从 单一 的 重复 性 检测 到 全 网 协 
同 、 实 时 重复 性 检测 再 到 创新 性 判断 ， 语 义 技术 的 应 用 
对 于 尽早 发 现 学 术 不 端 行为 、 对 研究 内 容 低 水 平 重复 得 
选 将 发 挥 重 要 作用 。 

1.2 出 版 内 容 方面 从 单 篇 论文 出 版 到 关联 数据 出 版 
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由 于 传统 出 版 中 的 期 刊 版 面 限制 ， 作 者 无 法 提供 数 
据 的 分 析 过 程 ， 为 数据 自 改 和 伪造 提供 了 便利 。 为 了 提 
高 研究 的 可 重复 性 ， 科 研 人 员 要 求 期 刊 提供 研究 论文 原 
始 数据 的 期 望 越 来 越 强 烈 。 论 文 投稿 时 提交 和 发 表 时 公 
布 支 撑 数 据 ， 已 成 为 越 来 越 多 科技 期 刊 的 基本 要 求 ， 例 
如 Science、Nature 、Cell 等 ， 然 而 传统 出 版 的 有 限 版 面 难 
以 满足 这 一 要 求 。 
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从 而 在 镭 和 抄袭 方面 的 学 术 不 端 行 为 防范 中 发 挥 重要 
作用 。 

另外 , 仅 根据 相似 比 来 判断 是 否 存在 学 术 不 端 行为 ， 
决定 稿件 “去 ”与 “ 留 ” 有 着 一 定 的 不 科学 性 。 要 真正 
地 减少 跟风 、 重 复 选 题 ， 遏 制 平庸 不 良 选 题 ， 不 仅 要 杜 
绝 “ 形 抄 ”， 更 要 杜绝 “ 意 抄 ”。 应 用 语义 技术 的 科技 
期 刊 出 版 ， 将 呈现 智能 化 出 版 模式 。 智 能 化 的 信息 获取 


2014 年 ， 由 Nature 出 版 集团 创立 的 Scientific Data 电 
子 期 刊 和 中 国 科 学 院 地 理科 学 与 资源 研究 所 、 中 国 地 理 
学 会 创立 的 “全 球 变化 科学 研究 数据 出 版 系统 ” 均 已 实 
施 了 实体 数据 与 数据 论文 关联 出 版 的 模式 。 目 前 ， 国 内 
已 有 《地 理学 报 》 等 30 多 家 期 刊 就 关联 数据 发 表 论文 达 
成 了 共识 , 已 有 部 分 期 刊 提出 了 提交 支撑 数据 的 要 求 。 
如 《中 华 健康 管理 学 杂志 》 从 2016 年 起 ， 逐 步 要 求 原始 
研究 类 稿件 提供 相应 的 原始 材料 ， 例 如 原始 数据 、 原 始 
结果 、 量 表 、 干 预 方法 、 问 卷 等 ， 但 限于 传统 出 版 和 当 


前 数据 出 版 的 局 限 性 ， 这 些 资料 不 能 完全 发 挥 其 本 刁 的 
所 有 潜能 。 


2. 科技 期 刊 语义 出 版 中 学 术 不 端 行为 防范 功能 的 实现 途 
径 
2. 1 检测 软件 的 智能 化 

通过 查 重 软件 检测 可 以 发 现 部 分 学 术 不 端 行为 ， 但 
软件 查 重 存在 的 漏洞 和 不 足 也 使 学 术 不 端 行为 更 加 隐蔽 ， 
仿 测 出 该 行为 的 难度 增 大 。 语 义 技术 的 应 用 不 仅 使 得 + 
版 内 容 发 生 改 变 ， 也 可 使 得 查 重 技 术 更 加 智能 化 ， 查 重 
结果 更 为 准确 。 目 前 ， 语 义 技 术 是 查 重 软件 应 用 的 技术 
之 一 即 是 基于 词 频 统 计 的 方法 。 此 方法 引 自 向 量 空间 的 
检索 模型 ， 和 信息 检索 技术 相关 。 首 先 要 统计 每 篇 文档 
中 各 个 单词 的 出 现 次 数 ， 再 根据 指定 规则 将 单词 频 度 转 
化 为 空间 特征 向 量 ， 最 后 采取 度量 向 量 之 间 的 距离 来 计 
算 相 似 度 ， 从 而 达到 查 重 的 目的 。 

近年 来 ， 中 国 知 网 开发 的 科研 诚信 管理 系统 实现 了 
基于 内 容 的 信息 指纹 技术 与 语义 分 析 技 术 的 有 效 结合 ， 
不 仅 保证 了 检查 结果 的 精准 性 ， 还 具备 了 较 强 的 抗 干扰 
能 力 ， 支 持 文献 改写 、 重 组 、 翻 译 等 多 种 变换 形式 的 检 
测 ， 检 测 系统 已 实现 了 语义 级 别 内 容 的 检测 。 该 系统 不 
仅 可 对 图 、 表 等 特殊 检测 对 象 进 行 基于 标题 、 上 下 文 、 
图 表 内 容 结合 的 相似 性 检测 处 理 ""， 还 可 根据 特定 的 概 
念 、 观 点 、 结 论 等 内 容 进行 智能 信息 分 类 处 理 。 随 着 语 
义 技 术 在 查 重 系统 中 应 用 的 逐步 成 熟 ， 粒 度 可 调 地 融入 
语义 特征 的 相似 性 分 析 技 术 ， 以 句子 为 基本 分 析 单 位 ， 
专门 用 于 文本 相似 性 的 快速 准确 比 对 。 其 强大 的 查 重 功 
能 将 会 加 大 学 术 不 端 检测 力度 ， 即 使 是 一 般 的 低 水 平 重 
复 也 会 被 检测 出 来 , 普通 的 逃避 查 重 行为 更 是 无 处 通 形 ， 
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方式 ， 可 以 让 电脑 根据 已 有 信息 和 用 户 的 偏好 ， 直 接 获 
得 完成 分 析 结 果 。 
2. 2 出 版 内 容 的 关联 化 

通过 碎片 化 论文 内 容 加 上 关联 原始 数据 信息 ， 可 以 
完整 再 现 作者 的 研究 过 程 ， 数 据 来 源 更 清晰 ,文章 质量 
更 可 信 ， 并 可 实现 对 论文 内 容 的 再 分 析 ， 客 观 评价 其 对 
科学 发 展 的 价值 和 影响 。 复 证 是 检验 学 术 出 版 内 容 真实 
性 和 科学 性 的 有 效 手 段 ， 通 过 使 用 论文 中 数据 和 方法 进 
行 重复 操作 ， 将 试验 结果 与 由 获得 原始 数据 进行 比较 ， 
判断 学 术 成 果 的 真实 性 、 可 信 性 和 可 靠 性 。 利 用 语义 技 
术 进 行 关联 数据 出 版 ， 可 完整 展示 试验 过 程 ， 提 供 复 证 
基础 ， 增 大 了 不 端 行为 被 发 现 的 可 能 性 。 通 过 语义 出 版 
共享 这 些 资源 ， 还 可 让 更 多 的 数据 资源 使 用 者 从 多 个 方 
面 主动 参与 论文 “ 真 伪 ” 的 辨别 。 虽 然 不 能 完全 排除 数 
据 算 改 和 伪造 的 可 能 性 ,但 是 造假 本 身 所 需 付 出 的 成 本 
被 扩大 。 
2. 3 内 容 推送 的 精准 化 

大 量 的 网 络 信息 被 不 加 选择 地 广泛 推送 给 不 同 的 用 
户 。 一 般 的 主动 性 推送 ， 在 引起 用 户 焦 虑 的 同时 也 容易 
被 忽略 。 而 量体裁衣 的 精准 推送 可 以 解决 这 一 问题 。 通 
过 分 析 用 户 的 偏好 库 ， 语 义 出 版 可 以 智能 地 将 出 版 内 容 
主动 推送 给 相关 领域 的 专家 和 学 者 ， 这 样 “被 作者 ”和 
“被 免冠 作者 ”的 情况 就 会 被 及 时 发 现 。 由 于 专业 所 限 ， 
一 般 的 科研 圈子 范围 有 其 有 限 性 ,语义 出 版 的 精准 智能 
推送 增 大 了 抄袭 行为 对 于 目标 对 象 的 曝光 概率 ， 将 使 得 
此 类 情况 无 处 通 形 。 
2.4 出 版 流程 的 去 中 心 化 

现行 的 版 权 保护 模式 已 经 不 能 适应 时 代 的 需求 ， 一 
纸 简 单 的 “诚信 承诺 书 ”， 也 仅 是 道德 层面 的 约束 。 语义 
出 版 实践 的 数据 发 布 过 程 中 采取 的 是 FAIR 原则 ， 这 一 原 
则 与 去 中 心 化 所 遵循 的 原则 有 和 较 大 的 重合 ， 即 数据 存储 独 
立 于 服务 提供 商 、 具 有 交互 性 、 可 访问 性 以 及 自由 表达 和 
处 理 网 络 信任 的 能 力 ""。 语 义 出 版 天 然 具 有 去 中 心 化 的 
特点 ， 而 去 中 心 化 可 以 防止 文章 被 任意 自 改 。 真 正 的 语义 
出 版 是 在 论文 创作 阶段 就 开始 了 语义 分 析 和 处 理 趾 ， 如 
果 语 义 出 版 自 研究 人 员 从 试验 数据 的 记录 开始 ， 其 后 续 发 
生 数 据 算 改 、 版 权 争 议 等 事件 的 概率 将 大 大 降低 。 
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3. 科技 期 刊 语义 出 版 中 学 术 不 端 行为 防范 功能 的 实现 障 
碍 
3. 1 数据 的 开放 共享 与 出 版 商 既 有 利益 的 冲突 

单一 的 重复 性 检测 不 足以 充分 发 挥 语义 技术 的 优势 。 
学 术 不 端 检 测 需 要 一 个 尽 可 能 完备 的 全 文 数据 比 对 资源 
库 。 目 前 ， 中 国 知 网 的 科研 诚信 管理 系统 不 仅 可 以 与 知 
网 所 提供 的 《中 国 知 识 资源 总 库 》 内 所 收录 文献 的 比 对 ， 
还 可 与 互联 网 部 分 开放 的 资源 进行 比 对 ， 但 是 对 于 其 它 
数据 库 的 资源 无 法 涉及 。 语 义 出 版 与 数据 的 开放 共享 是 
互利 的 ， 可 以 实现 学 术 不 端 检 测 的 全 网 协作 ， 但 是 这 与 
各 数据 库 出 版 商 的 利益 存在 冲突 。 

3.2 语义 技术 与 区 块 链 技术 的 联合 应 用 的 冲突 

语义 出 版 是 有 限 的 去 中 心 化， 通过 与 其 他 技术 联合 
使 用 ,设计 具有 可 信任 性 的 语义 出 版 物 ， 实 现 完全 去 中 
心 化 ， 如 区 块 链 技术 。 区 块 链 是 通过 密码 学 方式 形成 的 
一 个 由 集体 维护 的 分 布 式 数据 库 ， 数 据 块 相连 组 合成 链 
条 , 各 节点 互相 监督 ,整个 工作 流程 中 移 除了 传统 第 三 方 ， 
信息 互联 互通 而 又 无 法 被 算 改 ,安全 性 高 '"。 通 过 区 块 
链 技术 可 以 对 内 部 数据 块 进 行 版 权 登记 ， 并 且 其 共识 机 
制 使 版 权 交 易 公开 透明 。 虽 然 区 块 链 技 术 在 版 权 方面 
的 运用 还 在 探讨 与 尝试 阶段 ,但 其 不 失 为 知识 产权 保护 
的 有 效 方法 之 一 。 王 众 等 就 两 项 技术 在 农产品 质量 安全 
追溯 领域 的 联合 应 用 提出 了 一 个 概念 性 的 验证 系统 1。 
在 语义 出 版 的 基础 上 应 用 区 块 链 技术 ,通过 智能 合约 的 
方式 建立 共识 机 制 , 保障 数据 获取 的 安全 性 和 权益 归属 ， 
为 科技 论文 出 版 添加 上 信任 的 纽带 和 数据 安全 的 保障 。 
语义 技术 是 使 得 信息 可 用 ， 而 区 块 链 技术 是 确保 隐私 不 
被 非法 获取 和 数据 安全 ， 二 者 间 存 在 着 一 定 的 冲突 。 虽 
然 区 块 链 技 术 与 语义 技术 的 融合 对 于 防范 学 术 不 端 颇具 
效力 ， 但 其 可 行 性 还 需 验 证 。 

4. 结论 和 建议 

语义 出 版 是 具有 弹性 扩展 、 动 态 分 配 和 资源 共享 等 
特点 的 数字 内 容 出 版 , 它 催生 大 量 新 型 出 版 业 信息 服务 ， 
带动 出 版 格局 的 整体 变革 。 充 分 利用 语义 技术 强大 的 语 
义 分 析 功 能 ， 可 提高 查 重 检测 的 精确 度 ， 通 过 语义 出 版 
从 多 方面 提高 论文 学 术 不 端 行为 的 辨识 率 ， 从 技术 手段 
方面 防范 学 术 不 端 ， 有 利于 对 科技 期 刊 的 出 版 流程 进行 
更 为 科学 的 控制 和 管理 ， 建 立 科 技 期 刊 知识 版 权 的 保护 
壁垒 ， 从 而 确保 科技 期 刊 的 绿色 健康 发 展 ， 建 立 良好 的 
学 术 环 境 。 

在 开放 科学 的 大 背景 下 ， 出 版 数据 的 开放 共享 趋势 
明显 。 在 语义 出 版 中 ， 可 以 实施 出 版 数据 的 开放 共享 与 
部 分 有 偿 使 用 。 在 进行 学 术 不 端 检 测 时 ， 通 过 与 各 出 版 
商 的 利益 关联 ， 综 合 性 无 偿 服 务 与 个 性 化 有 偿 服 务 相 结 
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合 , 提高 其 共享 数据 的 积极 性 ， 从 而 实现 全 网 协同 检测 。 

目前 ， 内 容 组 织 的 语义 化 已 成 为 大 数据 时 代 科技 期 
刊 发 展 的 主要 趋势 。 但 是 要 使 广大 的 作者 及 编辑 人 员 熟 
练 地 应 用 语义 技术 来 写作 和 编辑 论文 ， 还 须 开发 出 友 
好 的 软件 操作 界面 以 供 使 用 。 各 刊 社 要 重视 专业 人 才 的 
培养 及 现 有 人 员 知 识 的 更 新 ， 有 条 件 的 单位 可 考虑 引进 
相关 专业 技术 人 才 ， 已 形成 集群 的 科技 期 刊 则 可 采取 远 
程 的 专业 智力 资源 共享 。 图 
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